杨强:打破数据孤岛穿越人工智能寒冬

经济观察报 记者 胡群 随着5G、物联网、云计算、工业互联网等技术发展,数据量已然进入爆发增长期,如何在遵守更加严格、新的隐私保护条例前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者和实践者面临的首要挑战。

“倘若不能很好地解决这个问题,将会很可能导致新一轮的人工智能寒冬。”微众银行首席人工智能官杨强称,在人工智能领域,隐私保护技术“联邦学习”作为一种分布式的机器学习新范式,具有“数据不动模型动,数据可用不可见”的核心特征,已成为推动人工智能产业应用深化、数据要素流通、数据价值释放的关键技术。

杨强还是香港科技大学计算机与工程系讲座教授和前系主任,AAAI-2021大会主席,国际人工智能联合会(IJCAI)理事会前主席,香港人工智能与机器人学会(HKSAIR)理事长,智能投研技术联盟(ITL)、开放群岛(OI)开源社区、联邦学习FATE开源社区主席,华为诺亚方舟实验室首任主任。他于2013年7月当选为国际人工智能协会(AAAI)院士,是第一位获此殊荣的华人,之后又于2016年5月当选为AAAI执行委员会委员,是首位AAAI华人执委。2017年8月他当选为国际人工智能联合会(ICAI,国际人工智能领域创立最早的顶级国际会议)理事会主席,是第一位担任ICAI理事会主席的华人科学家。

杨强所在的微众银行是国内首家提出“联邦学习”解决数据孤岛与数据隐私保护难题的机构,联邦学习为人工智能落地中数据孤岛与数据隐私保护难题提供了通用解决方案。

从实验室中走向工业化

杨强擅长机器学习和数据挖掘领域,是该方向的领军人物。2012年,杨强将主要精力转向大数据的产业化,与华为公司联合组建诺亚方舟实验室,并担任首席主任。

“人工智能有一个特点,就是离不开实际的应用场景。刚开始我一直在学校研究人工智能,再逐渐接触到华为、微众等企业。后来我逐渐感觉到,人工智能在特定的场景中仍遇到一些挑战。2018年时我已在微众银行担任独立董事,接触了很多微众的金融场景,感触特别深的是微众需要很多模型来支持各种金融方面的操作。这个场景刚好适合我,就选择了来到微众。”杨强称,机器学习的技术本身已经很成熟,只不过是从实验室中走向工业化。而联邦学习则是从零开始,全球都没有成功案例。

回溯最初,谷歌在2016年发表的论文中提出了联邦学习概念,从此联邦学习成为人工智能社区里一个非常活跃的研究领域。杨强团队在2018年提出系统化的联邦学习理论,抖客网,2019年发布了FATE开源系统,2020年出版了首本联邦学习中英文专著《联邦学习》。经过多年的探索,目前微众银行新一代的联邦学习在理念和实践上已走在了全球前列。

早在2018年之前,人工智能已在很多领域开展应用,但训练人工智能应用模型所需要的数据量非常庞大。在很多领域中,人们发现满足这样规模的数据量是难以甚至无法达到的。尤为重要的是,人们对用户隐私和数据安全的关注度也在不断提高。用户开始更加关注他们的隐私信息是否未经自己许可,便被他人出于商业或其他目的而利用,甚至滥用。在此趋势下,包括中国在内的全球多地政府相继出台数据保护法律和法规,使得数据孤岛效应进一步显现。“在这样的法律环境下,收集和分享不同组织间的数据将会变得越来越困难。更加重要的是,某些高度敏感的数据(例如,金融交易数据和医疗健康数据等)的拥有者也会极力反对无限制地计算和使用这些数据。在这种情况下,数据拥有者只允许数据保存在自己手中,进而会形成各自孤立的数据孤岛。”杨强称,如何在更加严格的、新的隐私保护条例的前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者和实践者面临的首要挑战。倘若不能很好解决这个问题,将会很可能导致新一轮的人工智能的寒冬

联邦学习“奠基者”

“我们把联邦学习到今天的发展分为1.0阶段和2.0阶段。1.0阶段是从2018年开始的。”杨强称,按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学习、纵向联邦学习。目前大部分手机等终端应用公司在使用横向联邦学习,而在其他领域,大概是70%-80%的应用,是使用由微众银行发展出来的纵向联邦学习。2019年发表的一篇纵向联邦学习概述论文,目前已有超过3000个引用,这在学术界是非常惊人的。

2022年12月14日,中国移动发布的《中国移动隐私计算应用白皮书2.0》显示,纵向联邦学习适用于各个参与方有大量的重叠样本,但其特征空间不同的情形。典型的案例是跨行业、跨机构的数据联合建模,如同一地区的银行和电信运营商,其用户重叠度高,数据维度差异大,通过纵向联邦学习可以在保护数据隐私的条件下构建满足各种需求的模型。

当有着相同特征的样本分布于不同的参与方时,在能够实现综合运用各方数据的同时,保证各方数据隐私的算法称为横向联邦学习。横向联邦学习的目的是要利用分布于各方的同构数据进行机器学习建模,其典型应用场景包括医疗数据建模、业务相似的同行业、不同用户的数据联合建模等。“现在联邦学习已经发展到2.0阶段。2.0阶段和1.0阶段的重大区别就是可信联邦学习。其本质是能够满足用户和监管等各方面需求的分布式机器学习范式。可信联邦学习将助推隐私计算应用在各种场景上,降低隐私计算的成本,提升隐私计算应用质量,从而加速推动隐私计算行业的发展。在2022年初我们发表了一篇论文叫做《联邦学习中隐私与模型性能没有免费午餐定理》,就论证了隐私保护、模型性能、算法效率三者需要平衡,且可以平衡。”杨强称。

2022年,微众银行与上海交通大学、中山大学等机构联合撰写的《联邦学习中隐私与模型性能没有免费午餐定理》《FedCG:联邦条件对抗生成网络》《FedIPR:联邦学习模型所属权验证》多篇论文被IJCAI2022、TPAMI2022、ACMTIST国际人工智能顶级学术期刊和顶级学术会议收录发表。

其中,《联邦学习中隐私与模型性能没有免费午餐定理》提出了隐私与模型性能的“No-free-lunch安全-收益恒定”定律,首次从信息论的角度分析揭示了联邦学习的模型效用与隐私保护之间的内在约束关系,利用该定律可实现可信联邦学习的安全、效用、效率三者的协调,在保证数据隐私保护的同时,也最大化模型效用和学习效率。有效运用该定律能够量化分析隐私计算各种技术保护方案的优劣,进一步优化隐私保护算法设计,为设计可信联邦学习算法提供有效的指导。

据清华大学发布的《联邦学习全球研究与应用趋势报告(2022)》统计,在论文研究方面,全球高被引论文领先的机构依次是谷歌、卡内基·梅隆大学、北京邮电大学及微众银行。从论文发布及高被引用论文数量、全球专利受理量及开源框架热度等几个方面来看,中国与美国正在引领全球联邦学习发展。“微众银行在联邦学习领域处于全球领先地位。”杨强称,从论文、专利、场景应用和生态发展等多维度来比较,微众银行已成为联邦学习领域的领头羊,但他更希望看到多个领头羊的出现。多个企业和机构都在探索和实践联邦学习是非常好的现象,对于促进行业生态的发展有着至关重要的意义。

原标题:【杨强:打破数据孤岛穿越人工智能寒冬
内容摘要:经济观察报 记者 胡群 随着5G、物联网、云计算、工业互联网等技术发展,数据量已然进入爆发增长期,如何在遵守更加严格、新的隐私保护条例前提下,解决数据碎片化和数据隔离的问题, ...
文章网址:https://www.doukela.com/jc/189415.html;
免责声明:抖客网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
上一篇:唐睿:搭建一个国产IP体系
下一篇:新实控人入主揭盅过往“失败”重组 大众系释放撤离交大昂立信号